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数据 新 闻 产 生 过 程 中 的 新 闻 意 识 


摘 要 : 随 着 互联 网 技术 的 发 展 ， 大 数据 在 各 行 各 业 显现 出 重要 的 价值 。 在 新 闻 行业 ,通过 大 数据 工具 对 新 闻 要 素 进行 挖 气 、 
分 析 ， 形 成 了 不 同 于 传统 新 闻 媒 体 的 一 种 报道 方式 ， 即 数据 新 闻 。 数 据 新 闻 在 生产 的 过 程 中 依赖 互联 网 大 数据 。 本 文通 过 对 
数据 新 闻 产 生 过 程 的 剖析 ， 厘 清 数据 新 闻 产 生 过 程 中 各 个 环节 的 作用 机 制 ， 有 利于 数据 新 闻 更 好 地 发 挥 其 特色 ， 为 受众 报道 


事实 。 
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1. 数据 新 闻 

数据 新 闻 是 大 数据 对 新 闻 行业 渗透 的 产物 。 数 据 新 
闻 具 有 两 个 最 显著 的 特点 : (1) 数据 的 支撑 和 直观 的 呈 
现 方 式 。 数 据 的 支持 可 以 细 分 到 两 点 ,一 是 数据 新 闻 的 
价值 衡量 可 以 通过 对 数据 库 里 的 数据 进行 抓 取 、 分 析 ， 
依据 受众 的 信息 需求 欲望 给 予 一 定 的 价值 判断 ， 二 是 数 
据 新 闻 报 道 方式 的 内 容 是 充满 着 数据 的 ， 是 用 数据 呈现 
新 闻 报 道 的 主题 和 角度 的 ， 是 通过 对 数据 相关 性 的 分 析 
来 报道 事实 。 (2 ) 数据 新 闻 的 呈现 方式 是 可 视 化 的 ， 是 
直观 简洁 的 ， 这 是 它 对 传统 的 新 闻 报道 方式 最 为 明显 的 
改进 。 
2. 数据 新 闻 产生 的 过 程 
2.1 选 题 

选 题 是 数据 新 闻 的 第 一 步 。 做 数据 新 闻 的 选 题 要 注 

重 两 方面 因素 : 一 是 新 闻 价 值 ， 二 是 这 个 内 容 是 否 适用 
于 数据 新 闻 的 呈现 方式 。 

数据 的 收集 和 整理 需要 耗费 一 定 的 时 间 ， 因 此 ， 在 
时 效 性 方面 可 能 比 不 上 传统 新 闻 。 在 选 题 策划 的 时 候 要 
充分 考虑 新 闻 类 型 对 时 效 性 的 要 求 。 数 据 新 闻 揭 示 的 是 
数据 背后 的 逻辑 关系 ,往往 是 对 现 有 的 新 闻 数 据 的 再 次 
使 用 和 深 控 ， 发 现 其 背后 的 关系 ， 这 无 疑 决 定数 据 新 闻 
在 确定 选 题 时 必然 注重 选 题 显著 性 ， 这 样 才 使 新 闻 数 据 
有 挖掘 的 意义 。 选 题 的 接近 性 是 指 选 题 与 受众 的 关联 意 
识 。 在 策划 选 题 前 ， 选 题 与 受众 的 接近 性 ， 这 种 接近 性 
的 程度 有 多 高 ? 这 都 是 应 该 考虑 的 ， 是 通过 大 数据 可 以 
得 到 这 种 关联 程度 的 准确 排 位 的 。 

数据 新 闻 的 报道 特点 是 将 数据 间 的 相互 关系 通过 可 
视 化 的 技术 呈现 在 观众 面前 ， 这 里 的 呈现 类 型 包括 图 片 
和 文字 、 音 频 、 视 频 等 ， 都 是 数据 新 闻 可 视 化 呈现 方式 。 
数据 新 闻 主 要 适用 于 一 些 数据 量 大 且 数 据 之 间 存 在 某 种 
关系 ， 这 种 关系 的 揭示 和 深 挖 具有 新 闻 价 值 。 
2. 2 数据 的 收集 和 筛选 
数据 新 闻 数 据 的 收集 因为 数据 的 广泛 性 需要 根据 选 
题 有 针对 性 地 收集 数据 。 数 据 新 闻 数 据 的 收集 主要 是 通 
过 疏 虫 工具 实现 ， 比 如 Arachnid、Crawlzilla 、Python 等 数 
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据 的 筛选 ， 是 确保 新 闻 真 实 性 的 有 效 途径 。 在 数据 收集 
的 同时 进行 数据 筛选 可 以 为 下 一 步 数 据 分 析 提 供 一 个 有 
价值 的 分 析 量 。 数据 的 真实 性 取决 于 数据 来 源 的 可 信和 度 。 
目前 ， 数 据 新 闻 报 道中 的 数据 大 都 来 源 于 政府 公开 的 数 
据 、 非 政府 机 构 收 集 的 数据 、 企 业 等 。 在 数据 收集 之 后 
进行 第 选 ， 主 要 是 对 收集 的 数据 进行 清洗 。 非 政府 机 构 
收集 的 数据 是 否 全 面 真 实 ? 企业 提供 的 数据 是 否 出 于 利 
益 有 所 失实 ? 媒体 自我 收集 的 数据 是 否 带 有 片面 性 ?这 
些 都 是 在 数据 清洗 过 程 中 要 注意 的 , 清洗 掉 那 些 不 真实 、 
不 必要 的 数据 , 为 下 一 步 数据 分 析 提 供 一 个 良好 的 环境 。 
2. 3 数据 的 分 析 

数据 分 析 可 以 从 数据 中 发 现 数据 背后 的 故事 和 价值 ， 
让 数据 能 够 成 功 地 成 为 新 闻 。 数 据 的 分 析 还 可 以 挖掘 出 
好 的 新 闻 选 题 。 

面 对 杂 乱 无 章 的 数据 ， 分 析 者 首先 要 将 收集 到 的 数 
据 统一 化 ， 便 于 观察 和 分 析 ; 其 次 ， 在 数据 分 析 时 要 注 
重 每 一 个 数据 的 关系 变化 。 数 据 分 析 可 以 明确 数据 新 闻 
的 报道 内 容 ， 不 同 的 分 析 层 面 决 定 了 数据 新 闻 不 同 的 深 
度 和 广度 ， 以 及 报道 的 故事 性 呈现 方式 。 在 数据 分 析 的 
过 程 中 ， 关 注 数据 极 值 的 出 现 ， 注 重 数据 之 间 的 对 比 关 
系 和 导 辑 关系 ， 善 于 观察 数据 发 展 的 趋势 ， 大 胆 地 推测 
并 进行 有 效 的 验证 ， 这 些 都 是 数据 新 闻 分 析 中 常用 的 方 
法 。 数据 分 析 的 工具 主要 有 : ERP、Matlab、SAS、SPSS 等 ， 
这 些 工 具 都 是 较 专业 的 数据 分 析 工 具 。 
2.4 数据 新 闻 的 呈现 

数据 新 闻 的 可 视 化 呈现 形式 主要 包括 各 种 静 动 态 图 
表 。 根 据 具 体 的 主题 选用 不 同 的 背景 类 型 的 图表 形式 ， 
从 而 将 数据 新 闻 信 息 的 逻辑 关系 秩序 化 和 形象 化 。 目 前 
出 现 的 图 表 形 式 主要 有 以 地 图 为 背景 的 、 以 罗盘 为 背景 
的 ， 以 地 平 线 为 背景 的 ， 以 城市 为 背景 的 和 山脉 为 背景 
的 等 ， 还 有 一 些 流程 图 、 树 状 图 、 热 力图 和 散 点 图 等 ， 
有 具体 哪 种 类 型 比较 适合 所 需 报道 的 数据 新 闻 内 容 ， 这 要 
结合 具体 的 数据 意义 来 选择 。 目 前 广泛 使 用 的 可 视 化 制 
作 工 具 主 要 包括 icharts 和 tableau 等 。 最 后 ， 一 定 要 对 可 
视 化 的 图 表 进 行 润色 ， 比 如 对 图 标 中 的 每 一 类 数据 进项 
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颜色 区 分 ， 帮 助 受众 更 直观 地 厘清 信息 之 间 的 区 别 。 
数据 新 闻 的 产生 基于 一 个 团队 ， 这 个 团队 中 必须 有 

四 种 角色 ， 即 记者 编辑 、 数 据 分 析 师 、 美 术 设计 师 和 程 

序 员 。 内 容 的 组 织 由 记者 编辑 负责 ， 数 据 的 搜集 、 筛 选 

由 数据 分 析 师 负责 ， 图 形 的 设计 与 优化 由 美术 设计 师 负 

责 , 程序 员 主 要 负责 由 代码 呈现 图 形 。 而 在 实际 操作 中 ， 

往往 一 个 人 会 身 兼 数 职 。 

3. 产生 过 程 中 存在 的 问题 

3. 1 数据 的 质量 
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数据 取舍 有 误 , 失实 的 信息 大 量 涌 和 有效 信息 容量 之 中 ， 
数据 的 相对 关系 就 会 产生 相应 的 偏差 ， 这 样 会 造成 数据 
新 闻 报 道 引领 错误 的 社会 僵 论 ， 对 社会 的 正常 发 展 机 制 
造成 危害 。 

反之 ,在 数据 新 闻 中 ， 把 关 人 只 要 稍稍 对 数据 进行 
手脚 ， 就 会 造成 较 大 的 社会 影响 ,一 旦 别有用心 的 人 承 
担 把 关 人 的 角色 ， 后 果 不 堪 想 象 。 
4. 对 策 

对 数据 新 闻 生 产 过 程 的 参与 者 而 言 ， 要 加 强 理论 学 


数据 新 闻 中 数据 的 获取 是 通过 政府 机 构 获 得 共享 数 
据 ， 或 从 非 政 府 机构 和 企业 那里 获得 数据 ， 很 少 有 新 闻 
媒体 是 自己 搜集 数据 的 ， 一 是 工程 量 大 ， 二 是 数据 获取 
渠道 的 闭塞 和 有 限 。 通 过 从 他 人 那里 获得 数据 毕竟 是 有 
限 的 ， 而 数据 新 闻 又 是 由 数据 驱动 的 , 是 离 不 开 数 据 的 ， 
因此 ， 数 据 的 获取 成 为 了 数据 新 闻 发 展 的 一 个 障碍 。 

现下 的 许多 数据 新 闻 作品 中 都 出 现 大 量 的 数据 ， 专 
业 的 做 法 是 对 数据 的 来 源 进行 标注 ， 但 仍 不 乏 一 些 新 闻 
媒体 对 数据 来 源 不 予 交 代 ， 因 为 这 些 数据 可 能 来 源 于 别 
的 媒体 报道 之 中 ， 也 就 是 来 源 于 第 三 者 之 手 , 第 三 者 
且 不 具有 权威 性 ， 就 会 使 得 新 闻 的 说 服 力 不 强 。 这 样 做 
一 方面 会 对 媒体 的 形象 造成 损失 ， 降 低 受 众 对 这 一 媒体 
的 信任 度 ; 男 一 方面 ， 数 据 新 闻 的 逻辑 分 析 经 由 错误 的 
数据 得 到 加 深 和 呈现 ,很 有 可 能 会 造成 假 新 闻 在 受众 之 
间 的 传播 。 数 据 来 源 的 真实 性 有 待 查证 ， 无 处 可 查 是 当 
下 数据 新 闻 中 存在 的 一 个 弊病 。 

3. 2 数据 的 分 析 与 呈现 

数据 新 闻 不 同 于 新 闻 数 据 ， 数 据 新 闻 中 的 数据 是 海 
量 的 , 虽然 较 于 传统 的 抽样 调查 。 具有 相对 的 “全 面 性 ”， 
但 是 这 么 大 的 数量 必然 会 导致 一 部 分 数据 不 准确 。 因此 ， 


在 此 数据 基础 上 进行 分 析 也 就 很 难 实现 精确 ， 具 有 一 定 
的 模糊 性 。 
数据 的 呈现 放大 了 新 闻 的 议程 设置 功能 ， 由 于 数据 


给 受众 的 冲击 力 是 强大 的 ， 再 加 之 可 视 化 的 呈现 方式 ， 
使 得 数据 新 闻 所 报道 的 数据 之 间 的 逻辑 关系 在 受众 中 得 
到 深化 。 比 如 央视 的 《据说 春运 》 一 经 播 出 ， 受 众 就 会 
对 春运 形成 一 种 形象 的 感知 ， 也 不 容易 听 得 进去 关于 春 
运 相 反面 的 新 闻 。 这 无 形 中 加 深 和 固化 了 受众 对 我 国 春 
运 的 认 知 基 膜 。 由 于 数据 新 闻 的 特性 ， 如 果 没 有 媒体 利 
用 这 一 特性 对 受众 进行 有 目的 的 议程 设置 ， 后果 无 疑 是 
影响 巨大 。 数 据 新 闻 的 呈现 在 这 一 方面 不 利于 新 闻 对 拟 
态 环境 的 客观 塑造 。 
3.3 把 关 人 角色 的 加 大 

在 数据 新 闻 中 ， 数 据 都 是 客观 存在 的 ， 数 据 的 分 析 
都 是 通过 工具 实现 的 ， 数 据 新 闻 就 是 呈现 数据 分 析 得 出 
的 数据 之 间 的 相关 关系 ， 这 一 切 看 似 对 把 关 人 的 角色 是 
一 种 淡化 ， 实 际 上 ， 数 据 新 闻 中 的 把 关 人 的 角色 不 但 没 
有 淡化 ， 反 而 加 大 。 在 选 题 的 过 程 中 就 是 把 关 人 出 现 并 
履行 职责 的 时 候 ， 一旦 选 题 出 现 失 误 ， 报 道 就 会 引领 错 
误 的 价值 观 , 导致 不 良 的 社会 舆论 。 同时 , 在 数据 的 筛选 、 
清洗 过 程 中 ,数据 的 取舍 也 是 把 关 人 作用 的 体现 ,一 旦 


Ll 


习 ， 提 高 新 闻 职 业 素养 ， 同 时 还 要 学 习 多 种 技能 ， 随 着 
数据 新 闻 的 发 展 ， 仅 仅 只 会 采编 的 记者 可 能 不 适应 技术 
性 较 强 的 数据 新 闻 生 产 ， 因 此 ， 记 者 要 不 断 地 提高 自己 
的 技能 。 提 高 新 闻 职 业 素养 是 新 闻 从 业者 在 职业 生涯 永 
恒 不 变 的 要 求 ， 在 数据 新 闻 领 域 ， 凡 是 参与 新 闻 生 产 的 
人 员 都 应 提高 新 闻 职 业 素养 ， 只 有 具有 较 高 的 职业 素养 
的 人 参与 到 新 闻 生 产 的 过 程 中 去 ， 才 能 更 好 的 履行 把 关 
人 的 角色 ， 才 能 在 数据 新 闻 报 到 中 做 到 平衡 报道 ， 追 求 
数据 新 闻 作 为 新 闻 本 身 的 价值 和 意义 。 

数据 来 源 开放 共享 是 解决 数据 来 源 、 拓 展 数据 新 闻 
报道 角度 的 重要 途径 。 数 据 一 旦 开放 共享 ， 数据 的 失实 
和 误差 将 会 降 到 最 低 ， 大 量 的 数据 也 可 以 为 新 闻 媒体 挖 
掘 数据 背后 不 同 的 相关 关系 ， 形 成 丰富 的 报道 主题 。 这 
也 可 以 杜绝 某 些 媒体 因 独 占 数 据 ， 其 他 媒体 无 法 核实 该 
媒体 基于 独占 数据 的 报道 是 否 合理 ， 而 形成 的 “一 言 莹 ” 
现象 。 虽 然 在 现 阶 段 还 不 可 能 实现 ,但 这 是 数据 新 闻 良 
好 发 展 的 一 个 希 费 。 

数据 新 闻 在 选择 合适 的 可 视 化 呈现 方式 时 ， 要 充分 
考虑 受众 的 理解 程度 。 数 据 新 闻 尽 管 具有 可 视 化 的 直观 
性 ， 但 是 对 专业 领域 的 报道 一 定 要 匹配 相应 的 通俗 的 揭 
示 文 字 ， 和 否则 非 专业 的 受众 就 会 对 此 信息 失去 阅读 的 兴 
趣 ， 本 来 直观 的 呈现 优势 也 不 存在 。 即 使 是 非 专 业 领 域 
的 数据 新 闻 报 道 ， 也 要 充分 结合 故事 性 来 叙述 ， 这 样 不 
至 于 数据 报道 干涩 ,没有 活力 。 结 合 了 故事 性 的 数据 新 
闻 呈 现 方 式 既 迎 合 了 受众 的 理解 力 ， 也 使 得 数据 新 闻 有 
了 鲜 活 的 张力 。 
结语 

数据 新 闻 为 新 闻 事 业 的 发 展 注入 了 新 鲜 的 血液 ， 也 
促进 了 媒介 融合 的 时 代 主 题 ， 数 据 驱 动 新 闻 使 得 新 闻 的 故 
事 性 更 加 客观 和 直观 ， 对 受众 而 言 ， 也 符合 当下 快 阅读 的 
习惯 。 但是， 数据 新 闻 还 在 不 断 的 摸索 中 发 展 ， 也 存在 不 
少 的 丈 端 ， 给 学 界 和 业界 提出 了 新 的 探究 课题 。 图 
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